0 avis
De la donnée à l'exploitation du savoir, Billet vulgarisation de l'IA
10/06/2025
Il est désormais bien établi, pour la majorité d’entre nous, que les données, leur qualité et leur gestion représentent un enjeu stratégique majeur pour les Services d’Incendie et de Secours (SIS). Nos outils et applications métiers génèrent un volume important de données qui ne sont pas toujours exploitées ni exploitables.
Dans cet article, nous allons explorer ce qui se cache derrière la conversion des données en un savoir exploitable par une intelligence artificielle, à travers un exemple concret inspiré de l’étude des feux de forêt.
Quelles sont les étapes de la transformation de données en savoir ?

Pour y parvenir, la sélection des données d’entraînement est cruciale : elle doit notamment exclure les données aberrantes, qui sont considérées comme des anomalies statistiques susceptibles de fausser l’apprentissage.
La première étape consiste à sélectionner, nettoyer et mettre en forme les données pour les contextualiser et les relier entre elles.
Maintenant que les données sont exploitables, nous pouvons les analyser d’un point de vue statistique et mathématique : tendances, corrélations, distributions.
À ce stade, l’information devient une connaissance structurée.
Comme souvent, rien de tel qu'un bon schéma pour comprendre :
Quelles sont les processus techniques de l'apprentissage d'une IA adaptés à l’environnement de mon établissement ?
La problématique des IA grand public, ce sont leurs données d'entraînement qui ont pour objectif de synthétiser la connaissance humaine. Mais lorsque l'on veut obtenir des réponses spécifique, l'IA aura souvent tendance à halluciner. Si vous avez pour projet de créer une IA entraînée spécifiquement avec vos données internes, vous devez vous attendre à entendre plusieurs termes techniques.
À cet effet, voici un glossaire non exhaustif :
Pipeline
Un pipeline est une séquence d'opérations automatisées qui traite les données de bout en bout, de l’ingestion (extraction des données) à leur transformation, modélisation, et exploitation finale (ex : prédictions, visualisation ou API).
Corpus d'entraînement
Base de données textuelle ou structurée contenant les exemples sur lesquels l'IA va s'entraîner. Il doit être pertinent, cohérent et représentatif.
Un corpus peut être constitué de rapports, de dialogues, de procédures, etc.
Tokenisation
Transformation d’un texte en unités de base appelées tokens (mots, sous-mots, caractères), qui seront ensuite converties en nombres.
“pompiers” ? [345, 892]
Modèle de langage
IA conçue pour comprendre, générer ou transformer du texte à partir de statistiques apprises sur de grands corpus.
Ex.: GPT, DeepSeek, Mistral, LLaMA...
Entraînement (training)
Processus par lequel l’IA ajuste ses millions à milliards de paramètres internes pour améliorer ses prédictions à partir des données.
Elle apprend à deviner le mot suivant ou à répondre à des questions.
Époch
Un passage complet sur l’ensemble du corpus. Plus il y a d’époques, plus l’IA revoit ses données, mais au risque de surapprendre (overfitting).
Loss (fonction de perte)
Indicateur numérique de l'erreur entre la réponse de l'IA et la bonne réponse. L’objectif de l’apprentissage est de minimiser cette perte.
Fine-tuning
Entraînement complémentaire d’un modèle déjà existant sur un corpus spécifique pour l’adapter à un contexte ou un métier donné.
Ex. : adapter un modèle généraliste pour qu’il comprenne les procédures de sécurité incendie.
Inférence
Phase où le modèle déjà entraîné est utilisé pour générer des réponses à de nouvelles questions ou demandes.
C’est le moment où l’IA “parle” ou “agit” à partir de ce qu’elle a appris.
Prenons l'exemple d'une structure qui souhaiterait disposer de son propre agent virtuel pouvant répondre à des questions spécifiques à un groupement opération :
On veut que l’IA soit capable ensuite de répondre à : Quelles sont les premières étapes lors d’un accident de la route ?
Étapes types :
- Ingestion : récupération des données (Word, Excel, SQL, etc.)
Note de service, règlement opérationnel, GDO, ...
- Prétraitement : nettoyage, normalisation, formatage (tokenisation, découpage)
Extraction des données et mise en forme un un fichier qui peut-être un Json
{
"prompt": "Quelles sont les premières étapes lors d’un accident de la route ?",
"completion": "1. Sécuriser la zone. 2. Établir un périmètre de sécurité."
}
- Encodage : passage des données texte ? tokens numériques (via un tokenizer)
"1. Sécuriser la zone." ? [1543, 432, 7821, ...]
- Batching : regroupement en lots pour optimiser l'entraînement
- Entraînement : backpropagation sur les batches (fine-tuning)
À chaque phrase :
- le modèle fait une prédiction
- compare avec la bonne réponse
- ajuste ses paramètres internes (poids) pour réduire l’erreur (loss)
Cela se répète des milliers de fois, ligne par ligne, batch par batch.
- Évaluation : mesure des performances (loss)
- Déploiement
Ainsi, nous avons vu de manière simplifier ce qui se cache entre vos données et leurs utilisations si vous avez un projet d'IA. Nous avons donc seulement toucher du doigt la complexité et la rigueur nécessaire. Exploiter l’intelligence artificielle dans un environnement opérationnel comme celui des SIS ne relève pas uniquement de la technologie, mais avant tout d’une maîtrise de la donnée : qualité, structuration, accessibilité, gouvernance.
Ltn Ernest Werenfrid
https://www.linkedin.com/in/ernest-werenfrid-6014b7158/
.